由胰腺管网络的具有挑战性的分割任务激发,本文解决了两个通常遇到生物医学成像问题的问题:分割的拓扑一致性,以及昂贵或困难的注释。我们的贡献如下:a)我们提出了一个拓扑评分,该评分衡量了预测和地面真理分割之间的拓扑和几何一致性,应用于模型选择和验证。 b)我们在时间序列图像数据上为这一困难的嘈杂任务提供了完整的深度学习方法。在我们的方法中,我们首先使用半监管的U-NET体系结构,适用于通用分割任务,该任务共同训练自动编码器和分割网络。然后,随着时间的流逝,我们使用循环的跟踪来进一步改善预测的拓扑。这种半监督的方法使我们能够利用未经通知的数据来学习特征表示,尽管我们的带注释的培训数据的变化非常有限,但该特征表示具有较高可变性的数据。我们的贡献在具有挑战性的分割任务上得到了验证,从嘈杂的实时成像共聚焦显微镜中定位胎儿胰腺中的管状结构。我们表明,我们的半监督模型不仅优于完全监督和预训练的模型,而且还优于在训练过程中考虑拓扑一致性的方法。此外,与经过平均循环得分为0.762的CLDICE的U-NET相比,我们的方法的平均环路得分为0.808。
translated by 谷歌翻译
Bias elimination and recent probing studies attempt to remove specific information from embedding spaces. Here it is important to remove as much of the target information as possible, while preserving any other information present. INLP is a popular recent method which removes specific information through iterative nullspace projections. Multiple iterations, however, increase the risk that information other than the target is negatively affected. We introduce two methods that find a single targeted projection: Mean Projection (MP, more efficient) and Tukey Median Projection (TMP, with theoretical guarantees). Our comparison between MP and INLP shows that (1) one MP projection removes linear separability based on the target and (2) MP has less impact on the overall space. Further analysis shows that applying random projections after MP leads to the same overall effects on the embedding space as the multiple projections of INLP. Applying one targeted (MP) projection hence is methodologically cleaner than applying multiple (INLP) projections that introduce random effects.
translated by 谷歌翻译
轨迹预测是成功的人类机器人相互作用的必不可少的任务,例如在自动驾驶中。在这项工作中,我们解决了使用移动摄像机在第一人称视图设置中预测未来行人轨迹的问题。为此,我们提出了一种新型的基于动作的对比学习损失,该损失利用行人行动信息来改善学习的轨迹嵌入。这一新损失背后的基本思想是,在特征空间中,执行相同行动的行人的轨迹比具有明显不同动作的行人的轨迹更接近彼此。换句话说,我们认为有关行人行动的行为信息会影响他们的未来轨迹。此外,我们为轨迹引入了一种新型的采样策略,能够有效地增加负面和阳性对比样品。使用训练有素的条件变异自动编码器(CVAE)生成其他合成轨迹样品,该样品是为轨迹预测开发的几种模型的核心。结果表明,我们提出的对比框架采用了有关行人行为的上下文信息,即有效的行动,并学习了更好的轨迹表示。因此,将所提出的对比框架集成在轨迹预测模型中可以改善其结果,并在三个轨迹预测基准上胜过最先进的方法[31,32,26]。
translated by 谷歌翻译
事实证明,神经网络是以非常低的比特率解决语音编码问题的强大工具。但是,可以在现实世界中可以强大操作的神经编码器的设计仍然是一个重大挑战。因此,我们提出了神经末端2端语音编解码器(NESC),可用于3 kbps的高质量宽带语音编码的稳定,可扩展的端到端神经语音编解码器。编码器使用一种新的体系结构配置,该配置依赖于我们提出的双PATHCONVRNN(DPCRNN)层,而解码器体系结构基于我们以前的工作streamwise-stylemelgan。我们对干净和嘈杂的语音的主观听力测试表明,NESC对于看不见的条件和信号扰动特别强大。
translated by 谷歌翻译
动物运动跟踪和姿势识别的进步一直是动物行为研究的游戏规则改变者。最近,越来越多的作品比跟踪“更深”,并解决了对动物内部状态(例如情绪和痛苦)的自动认识,目的是改善动物福利,这使得这是对该领域进行系统化的及时时刻。本文对基于计算机的识别情感状态和动物的疼痛的研究进行了全面调查,并涉及面部行为和身体行为分析。我们总结了迄今为止在这个主题中所付出的努力 - 对它们进行分类,从不同的维度进行分类,突出挑战和研究差距,并提供最佳实践建议,以推进该领域以及一些未来的研究方向。
translated by 谷歌翻译
Mazumdar和Saha \ Cite {MS17A}的开创性论文引入了有关聚类的广泛工作,并带有嘈杂的查询。然而,尽管在问题上取得了重大进展,但所提出的方法至关重要地取决于了解基础全随随随之而来的甲骨文错误的确切概率。在这项工作中,我们开发了可靠的学习方法,这些方法可以忍受一般的半随机噪声,从而在定性上获得与全随机模型中最佳方法相同的保证。更具体地说,给定一组$ n $点带有未知的基础分区,我们可以查询点$ u,v $检查它们是否在同一群集中,但是有了概率$ p $,答案可能可以受到对抗的选择。我们在理论上显示信息$ o \ left(\ frac {nk \ log n} {(1-2p)^2} \ right)$查询足以学习任何足够大尺寸的群集。我们的主要结果是一种计算高效算法,可以用$ o \ left(\ frac {nk \ log n} {(1-2p)^2} \ right) + \ text {poly} \ left(\ log(\ log) n,k,\ frac {1} {1-2p} \ right)$查询,与完全随机模型中最知名算法的保证相匹配。作为我们方法的推论,我们为全随机模型开发了第一个无参数算法,并通过\ cite {ms17a}回答一个空的问题。
translated by 谷歌翻译
稀疏PCA是通过在主组件上添加稀疏性约束来从PCA获得的优化问题。即使在单组件情况下,稀疏的PCA也很难且难以近似。在本文中,我们对协方差矩阵的等级来解决稀疏PCA的计算复杂性。我们表明,如果协方差矩阵的等级是固定值,那么存在一种算法,其解决了全局最优性的稀疏PCA,其运行时间是多项式在特征的数量中。我们还向稀疏PCA的版本证明了类似结果,这需要主组件要脱节支持。
translated by 谷歌翻译
归一化流是突出的深层生成模型,提供了易诊的概率分布和有效密度估计。但是,众所周知,在检测到分配(OOD)输入时,它们是众所周知的,因为它们直接在其潜在空间中对输入表示的本地特征进行了编码。在本文中,我们通过演示流动,如果通过注意机制延伸,可以通过表明流动,可以可靠地检测到包括对抗攻击的异常值。我们的方法不需要对培训的异常数据,并通过在多样化的实验设置中报告最先进的性能来展示我们的ood检测方法的效率。代码在https://github.com/computationalradiationphysphysics/inflow上提供。
translated by 谷歌翻译
骨科疾病在马匹中常见,通常导致安乐死,这通常可以通过早期的检测来避免。这些条件通常会产生不同程度的微妙长期疼痛。培训视觉疼痛识别方法具有描绘这种疼痛的视频数据是挑战性的,因为所产生的疼痛行为也是微妙的,稀疏出现,变得不同,使得甚至是专家兰德尔的挑战,为数据提供准确的地面真实性。我们表明,一款专业培训的模型,仅涉及急性实验疼痛的马匹(标签不那么暧昧)可以帮助识别更微妙的骨科疼痛显示。此外,我们提出了一个问题的人类专家基线,以及对各种领域转移方法的广泛实证研究以及由疼痛识别方法检测到矫形数据集的清洁实验疼痛中的疼痛识别方法检测到的内容。最后,这伴随着围绕现实世界动物行为数据集所带来的挑战以及如何为类似的细粒度行动识别任务建立最佳实践的讨论。我们的代码可在https://github.com/sofiabroome/painface-recognition获得。
translated by 谷歌翻译